Исследование структуры устройства и приложения распознавания речи

Иванченко Ю. С., Алимбарашвили С.И., Завадская Т. В.

Источник: IV Республиканская, с международным участием, научная интернет-конференция, Современные информационные технологии, ДонНУЭТ – 2021, С.133-135

Аннотация

В данной работе рассмотрены принципы создания приложения для распознавания речи. Также приведён структурный анализ устройства восприятия голоса и речи машинной.

Создание средств, реализующих управление компьютером посредством речевых команд, и распознающих голос человека востребовано в настоящее время. Приём речевой информации должен осуществляться с учетом требований к удобству ввода звуковых данных пользователя, например: ввод, запись, идентификация речи должен происходить без использования дополнительных устройств звукозаписи и звуко-обработки. Управление компьютером с помощью голоса может пригодится для людей с ограниченными возможностями или для повышения комфорта пользования функциями операционной системы. Программы распознавания музыки, как речи, используются для поиска исполнителя или названия песни по звучанию определённого отрезка файла.

Распознавание речи осуществляется путем сравнения введённых звуковых данных с уже имеющимся набором в базе данных фонем или с применением сравнения по спектральной плотности сигнала. Так как сигнал состоит из определенных составляющих – отсчетов, несущих некие информативные признаки исходной речи, поэтому принято использовать для сравнения частиц речи – фонемы, затем слоги и слова. Стоит отметить, что преимущества спектрального анализа состоит в исключении усредненного значения шума из общего спектра [1].

Следующий этап в развитии распознавания речи заняли скрытые марковские модели (СММ). СММ – это метод изменений состояния модели, которые происходят последовательно и случайным образом с такой закономерностью, что следующее состояние модели зависит от предыдущего [2].

В настоящее время используется метод распознавания речевых команд – нейронные сети, данный метод способен оценивать функции, при большом количестве параметров в них. Нейроны взаимодействуют между собой с помощью соединений, которые, в свою очередь имеют численные веса [2]. Примером создания сети стала модель работы нейронов человека.

На основе вышеописанных методов можно реализовать распознавание звуковых данных только при рассмотрении модулей, на которых будет создаваться соответствующее речевое устройство или приложение. Основной перечень модулей, следующий [2]:

акустическая модель – это функция, которая принимает признаки акустического сигнала, и преобразовывает в некую распределённую вероятность различных фонем на обрабатываемом отрезке сигнала.
языковая модель – использует вероятности использований слов и словосочетаний в речи определённого языка. Смысл заключается в предсказании следующего слова за уже известными с учетом контекста предложения.
декодер - усовершенствованная модель языкового аналога. Различия заключаются в использовании методов предсказания слов по лингвистической информации совместно с акустической. Применение данной комбинации позволяет определить наличие слитной речи без излишней нагрузки на память и уменьшения быстродействия для модулей, описанных выше. Также, для повышения быстродействия декодера применяется система раннего и позднего срабатывания модуля. Последовательность работы декодера заключается в следующем [2]:
1. оценка качества сигнала на уровни помех и искажений;
2. результат поступает в модуль акустической адаптации для расчета параметров, необходимых для распознавания.
3. выделения участков речи, где оценивается параметры и фонетические параметры речи для синтаксического, семантического и прагматического анализа.
4. сопоставления речи, с информацией из языковой и акустических моделей, в декодере.

Для реализации функций распознавания речи необходимо дискретизировать входной сигнал с сохранением исходного качество его звучания. Дискретизацию возможно произвести путём преобразований Фурье или с помощью вейвлет анализа. После преобразования сигнала в частотную форму появляется возможность определить границы спектра сигнала для сравнения звуковых сигналов и затем его распознания.

Для осуществления распознания речи следует классифицировать различные факторы языковых особенностей по следующим критериям:

Размер словаря. Словарь в приложении для распознания слов служит базой данных всего перечня слов, которые требуется опознать и сравнить с набором входных фонем и слов. Объём словаря должен быть оправдан необходимостью использования каждого слова, так как некоторые схожи по приставкам и окончаниям. Использование в приложении большого количества схожих слов приведёт к увеличению ошибок при опознавании фонем в словах, поэтому необходимо фиксировать добавление данных слов [3].
Дикторозависимость. Данный критерий отвечает за распознавание набора слов, произнесенных диктором, исходя из индивидуальных особенностей его произношения (скорость чтения, время запинания перед словом, четкость произношения и т.п.). Дикторонезависимость является следующей ступенью распознавания речи, но при этом повышается вероятность появления ошибок в идентификации необходимого слова [3].
Тип речи подразумевает поиск словосочетаний, где может присутствовать слитная речь диктора. Следовательно, требуется применение способов для распознавания и исключения ошибок в таких словосочетаниях [3].
Область применения отвечает за распознание смысловой нагрузки слов в предложении. Таким образом должен проводится некий анализ контекста предложения для точного определения произнесённого слова [3].
Лексическая структура отвечает за анализ слов, слогов и фонем. От структуры данного критерия зависит сложность в создании приложения и размер используемого словаря [3].
Механизм построения речи. Данным механизмом является вероятностно-сетевым методом, который разбивает входную речь на кадры, после чего определяется к какому элементу словаря приложения относится данная часть звукового сигнала [3].
Дополнительная неречевая информация предполагает использование неакустических параметров человека, которые задействуются при общении (движение губ, языка, мышц лица) [3]. Использование такого типа информации повысит качество опознания каждой единицы речи и снизит вероятность ошибок при этом.

После определения необходимых модулей и критериев для качественного распознания речи необходимо подобрать оборудование для приёма голоса. Важность данного составляющего заключается в качестве звуковых данных, которые поступят в приложение. Так как чем выше качество входного звука, тем эффективней будет работать система по распознаванию каждой фонемы, слова и т.д. Но вследствие требования лучшего качества оборудования, также и повысится цена на устройство распознавания речи в целом.

В итоге, приложение и устройство будет реализовано при использовании метода нейронных сетей, способного осуществить взаимодействие всех функций в приложении наиболее эффективно. Также необходимо организовать согласованность между модулями с учётом всех факторов распознавания голоса с целью минимизации количества ошибок при идентификации каждого слова диктора. В дальнейшем, результаты исследования позволяют сформировать конечный перечень требований к разрабатываемому устройству и приложению, и затем применить данные результаты на практике.

Список литературы:

Ле Нгуен Виен. Распознавание речи на основе искусственных нейронных сетей / Нгуен Виен Ле, Д. П. Панченко. — Текст : непосредственный // Технические науки в России и за рубежом : материалы I Междунар. науч. конф. (г. Москва, май 2011 г.). — Москва : Ваш полиграфический партнер, 2011. — С. 8-11.
Савченков П.А. Автоматическое распознавание речи на основе визуальной информации: бакалаврская работа / П.А. Савченков. – С.-П.: СПБГУ, 2016 – 8-13 с.
Бабаринов С.Л. О распознании речи: статья / С.Л. Бабаринов М.А. Будникова. – Научные ведомости, 2014. 4 c.